第1课强化学习在解决什么问题

学习笔记强化学习基础

创建于 2026-05-09

第1课：强化学习在解决什么问题

0. 一句话理解

强化学习要解决的是：智能体如何通过与环境交互，在没有直接标准答案的情况下，通过试错学会长期更优的决策。

1. 强化学习与监督学习的区别

监督学习

你拿到的是：

输入 $x$
标签 $y$

目标是学一个映射 $f(x)\approx y$。

强化学习

你拿到的不是“这一步该做什么”的标签，而是：

当前状态
采取动作后的环境反馈
奖励
下一状态

因此智能体要自己在交互中学习：

哪些动作好
哪些动作坏
怎样做才能让长期结果更优

2. 强化学习的三个核心特征

2.1 没有逐步标准答案

环境不会告诉你“此时最优动作就是 A”。

2.2 反馈往往是延迟的

你当前一步做得对不对，可能要很多步以后才看出来。

2.3 数据依赖于当前策略

你采取什么行为，会影响你后续能看到什么数据。

Note

这一点是 RL 和普通监督学习最根本的差别之一。

3. 奖励 reward

奖励是环境给出的即时反馈。它回答的是：

你刚才这一步，短期来看值不值？

例如： - 到达目标：+10 - 撞墙：-1 - 每移动一步：-0.01

但要注意：

强化学习最终优化的不是“即时奖励最大”，而是“长期累计回报最大”。

关联：04-第3课回报价值函数与Q函数#1. 回报 Return

4. 策略 policy

策略是智能体的行为规则，即：

在某个状态下，怎样选择动作。

常记作：

$$ \pi(a\mid s) $$

它表示在状态 $s$ 下采取动作 $a$ 的概率。

两种常见策略

确定性策略

$$ a=\pi(s) $$

随机策略

$$ \pi(a\mid s) $$

这点与 07-强化学习公式与符号说明#2. π 到底是什么直接相关。

5. 为什么不能只贪当前奖励

考虑两个动作：

动作 A：当前奖励高，但后续一般
动作 B：当前奖励低，但能带来更好的未来状态

如果只看眼前，容易选错。
因此强化学习要求智能体学会从长期角度评估行为。

这引出： - 04-第3课回报价值函数与Q函数 - 05-第4课 Bellman方程

6. 强化学习最小闭环

强化学习的基本交互可以写成：

$$ s_t \rightarrow a_t \rightarrow r_t, s_{t+1} $$

即： 1. 环境给出状态 $s_t$ 2. 智能体选动作 $a_t$ 3. 环境给出奖励 $r_t$ 与下一状态 $s_{t+1}$

这就是以后所有 RL 算法的最小工作单元。

7. 一个直观例子：机器人拿杯子

假设机器人要在房间里找到并拿起杯子。
它能做的动作包括：

向前走
左转
右转
伸手抓取

环境反馈： - 靠近杯子：+1 - 撞墙：-5 - 成功抓取：+100 - 每多走一步：-0.1

从这个例子中可以看到： - 任务是多步决策 - 奖励可能是延迟的 - 好动作不一定当前就显得“赚”

8. 初学者最应该建立的视角

看一个任务时，先问自己：

这是单步预测还是多步决策？
当前动作会不会影响未来局面？
当前反馈是不是稀疏或延迟？
目标是短期最优还是长期最优？

如果这四个问题的大部分答案都偏向“序列 / 未来 / 长期”，那就很可能是强化学习问题。

9. 易混淆点

奖励不等于价值

奖励是即时反馈；价值是长期前景评估。
见：04-第3课回报价值函数与Q函数#5. 奖励与价值的区别

策略不等于动作

策略是规则；动作是规则输出或从规则中采样得到的结果。
见：07-强化学习公式与符号说明#2. π 到底是什么

第1课强化学习在解决什么问题

第1课：强化学习在解决什么问题

0. 一句话理解

1. 强化学习与监督学习的区别

监督学习

强化学习

2. 强化学习的三个核心特征

2.1 没有逐步标准答案

2.2 反馈往往是延迟的

2.3 数据依赖于当前策略

3. 奖励 reward

4. 策略 policy

两种常见策略

确定性策略

随机策略

5. 为什么不能只贪当前奖励

6. 强化学习最小闭环

7. 一个直观例子：机器人拿杯子

8. 初学者最应该建立的视角

9. 易混淆点

奖励不等于价值

策略不等于动作

10. 我的理解（可自己补充）

11. 复习问题

12. 前后关联

前置

后续